社会科学家经常将文本文档分类为使用结果标签作为实证研究的结果或预测指标。自动化文本分类已成为标准工具,因为它需要较少的人体编码。但是,学者们仍然需要许多人类标记的文件来培训自动分类器。为了降低标签成本,我们提出了一种新的文本分类算法,将概率模型与主动学习结合在一起。概率模型同时使用标记和未标记的数据,而主动学习集中在难以分类的文件上标记工作。我们的验证研究表明,我们的算法的分类性能与最先进的方法相当,而计算成本的一部分。此外,我们复制了两篇最近发表的文章,并得出相同的实质性结论,其中仅占这些研究中使用的原始标记数据的一小部分。我们提供ActiveText,一种开源软件来实现我们的方法。
translated by 谷歌翻译
在本文中,我们引入了一个新的因果框架,能够处理概率和非稳定问题。实际上,我们提供了一种称为概率变异因果效应(PACE)的公式。我们的因果效应公式使用了与概率理论集成的函数的总变化的概念。PACE具有一个参数$ d $,以确定概率的程度。$ d $的较低值是指极少数情况很重要的情况。相比之下,由于$ d $的值较高,我们的模型涉及自然概率的问题。因此,我们通过离散$ d $来提供因果效应的单一价值,而是提供因果效应向量。我们还解决了在因果推理中计算反事实的问题。我们将我们的模型与Pearl模型,相互信息模型,条件相互信息模型和Janzing等人进行比较。通过研究几个示例来模型。
translated by 谷歌翻译